36氪 04-10 20:20

百度伐谋Agent 2.0再次登顶MLE-Bench

📌 一句话：百度AI Agent“伐谋2.0”再次斩获全球最权威评测榜首，标志着中国AI Agent正式领跑国际赛道。

💡 3个要点

评测权威性：MLE-Bench是AI Agent领域公认的“高考”，测试模型解决复杂软件工程问题的能力
技术突破性：伐谋2.0在代码生成、调试优化、任务规划等核心指标上全面超越GPT-4等国际主流模型
商业价值：这意味着企业可直接用百度AI Agent替代部分程序员工作，成本效率将大幅提升

💭 点评

百度这次登顶不是偶然。不同于某些厂商靠“刷榜”博眼球，MLE-Bench测试的是真实工程能力，伐谋2.0能连续夺冠说明技术底子硬。更值得玩味的是，这背后是百度多年深耕AI基础设施的集中爆发——从芯片到框架到模型的全链路布局，终于开始显现协同效应。可以预见，接下来AI Agent赛道将进入“中国时间”，国际竞争格局正在被改写。

📖 原文链接

点击阅读原文 →